最近,基于深度学习(DL)的非侵入性语音评估模型引起了极大的关注。许多研究报告说,这些基于DL的模型产生令人满意的评估性能和良好的灵活性,但是它们在看不见的环境中的性能仍然是一个挑战。此外,与质量分数相比,更少的研究详细阐述了深度学习模型以估计可理解性得分。这项研究提出了一个多任务语音可理解性预测模型,称为MTI-NET,用于同时预测人类和机器的可理解性度量。具体而言,鉴于语音话语,MTI-NET旨在预测人类的主观听力测试结果和单词错误率(WER)分数。我们还研究了几种可以改善MTI-NET预测性能的方法。首先,我们比较不同功能(包括自我监督学习(SSL)模型的低级功能和嵌入)和MTI-NET的预测目标。其次,我们探讨了转移学习和多任务学习对培训MTI-NET的影响。最后,我们研究了微调SSL嵌入的潜在优势。实验结果证明了使用跨域特征,多任务学习和微调SSL嵌入的有效性。此外,已经证实,MTI-NET预测的可理解性和WER得分与地面真实分数高度相关。
translated by 谷歌翻译